原文
总览
人脸动作编码系统从人脸解剖学的角度定义了一组面部动作单元(action unit, AU),用于精确刻画人脸表情变化。每个面部动作单元描述了一组脸部肌肉运动产生的表观变化,其组合可以表达任意人脸表情。
AU 检测问题属于多标签分类问题,其挑战在于标注数据不足、头部姿态干扰、个体差异和不同 AU 的类别不均衡等。
为总结结近年来 AU 检测技术的发展,文章系统概述了 2016 年以来的代表性方法,根据输入数据的模态分为基于静态图像、基于动态视频以及基于其他模态的 AU 检测方法,并讨论在不同模态数据下为了降低数据依赖问题而引入的弱监督 AU 检测方法。
- 针对静态图像,进一步介绍基于局部特征学习、AU 关系建模、多任务学习以及弱监督学习的 AU 检测方法
- 针对动态视频,主要介绍基于时序特征和自监督 AU 特征学习的 AU 检测方法
最后,文章对比并总结了各代表性方法的优缺点,并在此基础上总结和讨论了面部 AU 检测所面临的挑战和未来发展趋势。
引言
FACS 与 AU
1978 年,美国心理学家 Ekman 从面部解剖学角度首次提出面部运动编码系统(facial action coding system, FACS)。FACS定义了 44 个面部运动单元(action unit, AU),并具体定义了每个 AU 的作用区域、运动表观特征以及各种表情的 AU 构成。
每个 AU 均表示一种具有特定语义的脸部肌肉运动,如 AU1 表示眉毛内角提升运动,AU2 表示眉毛外角提升等。AU 可以被单独激活,也可以被组合激活。任何的脸部事件,都可以表示成若干 AU 的组合。例如,微笑可以表述为嘴角拉升(AU12)和脸颊提升(AU6)的组合。
FACS 的提出对当代自动人脸表情分析技术的发展起着至关重要的作用,相比于 Ekman(1971)定义的 6 类原型表情(愤怒、厌恶、恐惧、高兴、悲伤和惊讶),FACS 提供了一种更客观、更细粒度的面部表情描述方法。此外,通过采用一系列固定的人脸参数表示表情和人脸行为,FACS 避免了 6 类原型表情框架中因观测者不同而引入的标注歧义性。
总结 AU 发展与展望
自动化的 AU 检测技术得到了广泛的关注和应用。通过计算机自动检测 AU 及其组合,有助于准确分析面部表情和理解个体情绪,并在驾驶员疲劳检测、病患疼痛估计、刑侦测谎、影视评估和广告评估等场景中具有良好的应用前景。随着以深度学习为代表的机器学习技术的发展,以及人脸检测、对齐和识别技术的不断完善,AU 检测技术也取得了明显的进步,与此同时,AU 检测技术仍然面临诸多挑战。为总结和讨论 AU 检测方向的近期发展,文章对过去 5 年该方向出现的代表性方法进行了分类、评述、总结和展望。文章将首先介绍 AU 检测任务的定义、挑战和评测数据情况,然后从静态图像 AU 检测、视频 AU 检测和其他模态 AU 检测等角度对相关方法进行概述,其中重点介绍了当前主流的基于深度学习的 AU 检测方法。之后文章从性能评测的角度对一些主流的 AU 检测方法进行了对比,最后讨论了 AU 检测方向的未来发展趋势。
问题定义与挑战
AU 检测的定义
AU 检测的目标是估计输入人脸图像或者视频序列中各 AU 是否被激活。给定一幅输入图像或一段视频序列,AU 检测流程可以分为以下几个阶段:
- 人脸检测、跟踪与对齐
- 输入图片:判断是否包含人脸,并确定人脸位置与裁剪人脸区域
- 输入视频:动态人脸检测和跟踪,检测人脸区域后还需要定位面部特征点并据此对其人脸以消除3维刚性的头部运动
- AU 特征提取
- AU 特征提取是 AU 检测系统的核心组成部分
- 常用的 AU 特征包括几何特征、手工设计的各种表观特征以及通过深度学习模型提取的深度特征
- 检测 AU 的激活状态
- 提取输入图像或视频帧的 AU 特征后,依据特征估计 AU 激活状态
- 需要针对每个 AU 采用单独的二分类方法,或针对多个 AU 采用多标签分类方法
AU 检测的主要挑战
作为一个典型的视觉模式识别问题,AU 检测存在一些独有的难点,主要包括:
- 标注数据不足:不同人的面部动作强度不同、尺度范围的面部细微变化不同
- 实际应用场景中 AU 数据的复杂性问题
- 面部 AU 的个体差异问题
FACS 数据库及评测协议
在过去的几十年里,业界发布了多个公开的 FACS 数据库,用于统一评测相应方法的 AU 检测精度,并推动相关技术的发展。
早期大多在严格限定的环境下采集,受试者在固定的头部姿态下按照要求摆拍出相应的面部表情,如 CK(Cohn-Kanade) 和 MMI(Maja Pantic, Michel Valstar Initiative)
自 2011 年以来,越来越多的机构和研究者开始关注个体的自发表情,所采集的数据库包含了受试者在限定条件下诱发的自发表情,如受试者在观看电影片段时自然流露的面部表情,如 DISFA(Denver Intensity of Spontaneous Facial Action) 和 BP4D。2016 年以后,业界逐步发布了一些开放场景下采集的 FACS 数据库,如 EmotioNet 和 GFT(Sayette Group Formation)。这些数据库中的人脸图像或视频收集自互联网等自然场景,其中人物的面部表情呈现出丰富的多样性。
AU 检测方法进展
根据输入数据的不同,当前 AU 检测方法可以分为基于静态图像(image-based)的方法、基于动态视频序列(video-based)的方法,以及基于其他模态(如点云、红外图像等)的方法。
考虑到 AU 本质是人脸局部区域的肌肉运动,并且各个 AU 的激活存在共生和互斥关系,因此基于静态图像的 AU 检测方法多尝试编码输入图像的局部特征,建模 AU 之间的依赖关系。此外激活的面部动作单元引起的表观变化将显著影响面部特征点的位置分布,因此当前有一些方法采用了同时估计面部特征点坐标和检测 AU 激活状态的多任务学习方法,用于提升 AU 检测精度。此外,由于 FACS 数据库中只有有限的标注样本,大量的研究工作尝试采用弱监督方法增加训练数据的多样性,提升 AU 检测模型的泛化性能。
基于动态视频的 AU 检测方法除了具有图像空间层面的特征表示能力,还能够在时间维度上编码连续帧之间的时序信息,因此能够准确感知视频序列中低强度 AU 的激活状态。为了降低模型对于标注训练数据的依赖,一些文献尝试以不同帧之间的运动信息为监督信号,采用自监督的方式学习 AU 特征。
为减轻头部姿态变化,以及光照变化带来的不利影响,出现了一些采用点云或红外图像的 AU 检测方法。
基于静态图像的 AU 检测方法
局部特征学习
因为每个面部动作单元描述了一组脸部肌肉运动产生的局部表观变化,所以显式学习 AU 的局部特征表示将有助于提升 AU 检测精度。为了学习输入人脸图像的局部特征,常用的方法有均匀分块方法、基于特征点的手工裁剪方法,以及基于注意力机制的自适应局部区域感知方法。
时间 | 作者 | 方法 | 效果 |
---|---|---|---|
2016 | Zhao | 设计了一种含有局部连接层的卷积神经网络模型 | 该方法将输入的卷积特征图划分为均匀的子区域,并针对每个子区域采用不同的卷积核进行局部区域特征学习 |
2017, 2018 | Li | 采用面部特征点裁剪出人脸的局部特征图 | 为解决基于均匀分块的方法无法在不同头部姿态下裁剪出语义对齐的人脸局部区域的问题 |
2016 | Jaiswal, Valstar | 通过每幅图像的面部特征点手工计算出一系列二值掩膜,裁剪出图像的局部区域用于局部特征学习 | |
2019 | Ma | 通过手工设计的方法,明确定义出每个 AU 对应的面部区域,并将 AU 检测问题转化为通用的物体检测问题 | 与均匀分块相比,使用面部特征点裁剪出的局部区域具有良好的语义对齐特性,有效提升了 AU 检测精度 |
然而,基于面部特征点的局部区域裁剪方法仍然存在两个主要问题:
- 裁剪规则依靠人为主观设计,裁剪数量不统一,难以公平比较不同裁剪方法的优劣
- 各种裁剪方法均采用大小统一的裁剪尺寸,灵活性有限
为解决上述问题,一些工作尝试采用注意力机制的方法学习 AU 的局部特征表示。
时间 | 作者 | 方法 | 效果 |
---|---|---|---|
2018 | Shao | 通过在线预测的面部特征点初始化多路注意力模板,并在模型的训练过程中自动修正注意力模板的中心位置 | |
2019 | Ertugrul | 采用面部特征点在人脸图像上裁剪出 9 个局部区域,随后采用特征层面的自注意力机制融合局部特征,以表达人脸不同区域的重要程度 |
相比手工设定的人脸局部区域中心坐标,基于注意力机制的局部特征学习方法具有更优的灵活性,模型能够在训练过程中自动注意到与 AU 紧密相关的非规则区域。
时间 | 作者 | 方法 | 效果 |
---|---|---|---|
2019 | Shao | 采用通道和空间层面的双重注意力机制学习输入图像的 AU 注意力模板,并采用条件随机场建模注意力模板中像素之间的关联关系 | 该方法在推断 AU 相关的注意力模板时不需要依赖面部特征点,因而具有良好的灵活性 |
然而由于当前的 FACS 数据库中只包含少量(几十个)的受试者,因此所学习的注意力模板难以准确捕捉未知个体的 AU 位置分布,采用条件随机场等方法修正注意力模板则增加了模型训练和推断的复杂度,不利于实际部署使用。
时间 | 作者 | 方法 | 效果 |
---|---|---|---|
2017, 2018 | Ali, Albiero | 基于面部特征点裁剪出一定量的人脸局部区域,采用局部特征学习的方式检测输入图像的 AU 状态 | 在跨姿态 AU 检测任务上取得了良好的效果 |
除了上述显式学习局部特征的方法,部分文献尝试隐式学习输入图像的局部特征。
时间 | 作者 | 方法 | 效果 |
---|---|---|---|
2016 | Han | 提出了一种增量集成的学习方法,该方法借鉴集成学习的思想,从输入图像的特征中自动选择出具有判别性的 AU 特征子集 | 能够有效减轻有限训练数据条件下 AU 检测模型过拟合的风险 |
2018 | Han | 考虑到不同的 AU 激活于不同尺度的人脸局部区域,提出了一种迭代式的模型训练方法,能够同时学习卷积核尺寸和卷积核参数 | 该方法能够为不同的 AU 学习出不同尺寸的卷积核,具有良好的解释性,其不足之处在于需要为每个 AU 训练单独的检测模型,模型在训练阶段无法进行有效的 AU 关联学习 |
AU 关系建模方法
AU 往往以组合的方式被激活,如惊讶表情一般包含了眉毛和嘴巴区域多个 AU 的组合,如 AU2(眉毛外角提升),AU26(下巴下降)等,因此显式建模 AU 之间的共生和互斥关系能够进一步提升 AU的检测精度。较早的 AU 关系建模方法多采用贝叶斯网络或波尔兹曼机建模 AU 在特征或标签层面的依赖关系,并取得了一定进展。
时间 | 作者 | 方法 | 效果 |
---|---|---|---|
2017 | Wang | 采用贝叶斯网络建模 AU 之间的依赖及互斥关系 | 该方法采用训练样本的 AU 标签优化贝叶斯网络的参数及连接结构,并在推断阶段使用贝叶斯网络辅助推断测试样本的估计标签 |
2018 | Hao | 进一步提出采用包含隐变量的多层贝叶斯网络 | 该网络能够同时建模隐变量之间的依赖关系以及可见变量(AU标签)之间的依赖关系 |
2017 | Wang | 采用多层的玻尔兹曼机同时建模 AU 在特征和标签层面的关系 | |
2019 | Wang | 尝试采用玻尔兹曼机建模 AU 标签的联合分布特性,并利用预训练的玻尔兹曼机为无标签数据分配伪标签 | 用于提升训练数据的多样性 |
上述采用贝叶斯网络或者玻尔兹曼机的 AU 关系建模方法不足之处在于没有耦合图像特征提取和 AU 关联学习,限制了相关方法的 AU 检测精度。
基于深度学习的相关工作开始以端到端的方式同时进行 AU 特征学习和 AU 关联学习。
时间 | 作者 | 方法 | 效果 |
---|---|---|---|
2018 | Corneanu | 提出了一种深度结构预测网络,该方法采用图模型建模 AU 依赖关系,并采用迭代的消息传递机制更新 AU 预测结果 | |
2019 | Niu | 采用图卷积网络建模 AU 标签之间的依赖关系,并使用 FACS 数据库的标注信息初始化 GCN 的邻接矩阵 | |
2019 | Li | 进一步采用门控图神经网络传递局部面部特征之间的依赖关系 | 提升用于 AU 检测的特征表示能力 |
这些方法能够在模型训练的过程中将 AU 关联知识嵌入到所学习的 AU 特征表示中,不但在 FACS 数据库上取得了更高的检测精度,所训练的模型同时能够较好地应对轻微的面部遮挡。然而,上述方法中图神经网络各个节点之间的连接关系依赖不同数据库的 AU 标签联合分布特性,最终训练得到的 AU 检测模型难以应用于跨数据库测试和验证,灵活性较低。
多任务学习方法
考虑到面部特征点表示的人脸形状信息有助于面部动作单元的检测,并且激活的面部动作单元引起的表观变化将显著影响面部特征点的位置分布,因此采用同时估计面部特征点坐标和 AU 激活状态的多任务学习方法有助于提升 AU 检测精度。
时间 | 作者 | 方法 | 效果 |
---|---|---|---|
2016 | Wu, Ji | 提出了一种约束联合的级联回归框架。该方法在估计面部特定点坐标位置时。使用了人脸的局部表观特征,以及当前预测的面部动作单元状态信息;在预测面部动作单元激活状态时,使用了人脸的局部表观特征,以及当前预测的面部特征点坐标位置信息 | 面部特征点坐标估计和面部动作单元检测在模型的训练过程中互相促进,最终两个子任务都取得了相应的性能提升 |
2018 | Shao | 提出了基于注意力机制的多任务学习方法。该多任务学习方法中,面部特征点定位被当做辅助任务,所学习到的特征被送入 AU 检测子任务中,用于提升 AU 检测精度 |
此外,离散表情分类和 AU 检测具有紧密的语义关联,已有一些工作联合学习这两个任务。
时间 | 作者 | 方法 | 效果 |
---|---|---|---|
2018 | Jyoti | 采用多任务学习方法同时预测输入图像中的人脸位置、面部动作单元状态,以及 7 类离散表情的概率分布 | 该方法在深度网络模型的不同层级分别估计上述 3 个任务,一方面实现了模型的参数共享,另一方面模型的浅层特征在训练过程中能够得到精确的监督信号 |
2019 | Wang | 使用十字绣网络模型同时学习面部动作单元检测和 7 类离散表情分类任务 | 该方法采用了可学习的参数用于自适应共享子任务之间的底层特征,并在 AU 检测任务上取得了显著的精度提升 |
上述多任务学习方法合理利用了外部数据和标签信息,有效提升了 AU 检测精度。从提升 AU 检测精度的角度出发,多任务学习中 AU 检测任务可以被进一步设计为主任务,其他任务可以被设计为辅助任务。此外,多任务学习过程中可以引入其他的相关任务,如情感维度估计等。
基于图像的弱监督方法
为了降低模型对于标注训练数据的依赖,一些研究者提出了半监督、弱监督的模型学习方法。
半监督 AU 检测方法在模型训练阶段同时使用了标注数据和无标注数据,并尝试在模型的训练过程中为无标注数据推断伪标签,随后将伪标签数据加入模型的训练过程中以提升数据的多样性和丰富性。
时间 | 作者 | 方法 | 效果 |
---|---|---|---|
2019 | Niu | 与传统的协同训练方法不同,采用权重正交的 AU 分类器学习训练样本的不同视图。针对无标签的训练数据,该方法通过最小化两个分类器输出分布距离的方式,确保两个分类器的预测结果具有一致性 |
弱监督 AU 检测方法在模型的训练过程中使用噪声标注或不完整标注的数据用于模型训练。
时间 | 作者 | 方法 | 效果 |
---|---|---|---|
2018 | Zhao | 针对噪声标签,采用了一种谱聚类的方法,在模型的训练过程中迭代纠正训练数据的标注标签 | |
2018 | Wang | 针对不完整标注,根据离散表情和 AU 的先验知识为训练样本推断初步的 AU 伪标签,并构造了基于多标签排序损失的弱监督学习方法 | 该方法在训练阶段不需要依赖 AU 标注标签 |
2018 | Wang | 根据 AU 和离散表情的联合分布统计结果为训练样本推断出 AU 伪标签,并通过对抗训练确保模型预测的 AU 标签分布与推断的 AU 标签分布一致 | |
2019 | Peng, Wang | 把面部动作单元识别和表情图像生成当作一个对偶任务,在训练阶段利用部分标注的 AU 数据和完全标注的离散表情数据进行模型训练,并通过对抗训练确保模型所生成的 AU 标签和离散表情标签的联合分布与真实的联合分布一致 | |
2018 | Zhang | 基于表情相关的 AU 概率分布以及表情无关的 AU 概率分布,设计了用于训练 AU 检测模型的多个约束项 | 实现了训练阶段无 AU 标注样本条件下的 AU 检测 |
上述半监督和弱监督 AU 检测方法能够在一定程度上缓解模型对于标注数据的依赖。总体而言,当前弱监督的 AU 检测方法往往借助于离散表情和 AU 之间的联合分布等先验知识,其存在两个关键问题:
- 联合分布的统计来源数据不足
- 统计结果不统一
由此推断的 AU 伪标签具有相当的歧义性,在此基础上训练得到的 AU 检测模型与监督方法相比并不具备优势。如何更合理地利用离散表情和 AU 之间的先验知识,在此基础上利用无标注或者弱标注的外部数据提升 AU 训练样本的多样性,具有显著的探索空间。
基于动态视频的 AU 检测方法
动态的视频序列天然包含了更丰富的上下文信息,能够准确反映面部动作的渐变过程(起始——高潮——结尾),因而视频对于面部动作的产生具有更准确的描述能力。已有的研究结果表明,在模型的训练过程中综合利用时序信息有助于
提升低强度 AU 的检测精度。当前基于动态视频的 AU 检测方法主要采用长短时记忆单元 LSTM 或 3 维卷积神经网络 3D-CNN 建模视频帧的时序特征,或者利用视频帧之间的光流信息进行 AU 检测。此外,为了减轻模型对于标注数据的依赖,一些工作采用视频之间的运动信息作为监督信号,以自监督的方法学习 AU 特征。
时序特征学习方法
当前基于视频的时序特征学习方法往往首先采用卷积神经网络 CNN 提取逐帧的空间特征,然后采用 LSTM 建模时序信息。
时间 | 作者 | 方法 | 效果 |
---|---|---|---|
2016 | Jaiswal, Valstar | 采用一种结合 CNN 和双向长短时记忆单元 Bi-LSTM 的时序特征学习方法,该网络模型能够同时学习输入图像的几何特征、局部表观特征,以及时序特征 | |
2017, 2018 | Chu, Mei | 采用一种联合 CNN 和 LSTM 的时序特征学习方法,该方法使用 CNN 提取图像的空间特征,使用 LSTM 建模视频帧之间的时序特征 | |
2017 | Li | 基于联合 CNN 和 LSTM 的方法,采用面部特征点裁剪出图像的一组局部区域,并结合 LSTM 建模输入视频帧之间的时序特征 | |
2019 | Yang | 采用 3D-CNN 建模输入视频帧的时序特征,并融合目标帧图像的空间特征进行 AU 检测 |
此外,一些工作采用视频帧之间的信息差异用于 AU 检测。
时间 | 作者 | 方法 | 效果 |
---|---|---|---|
2019 | Wu | 根据目标帧与中性人脸帧之间的差异学习与身份无关的 AU 特征表示。该方法需从视频序列中手工标记出中性人脸图像,并在模型的训练过程中输入来自同一视频的两帧图像 | 在针对未知个体进行 AU 检测时具有良好的泛化能力,其缺点在于训练和测试阶段均需要输入个体的中性人脸图像 |
另外还有一些方法尝试利用任意连续不同帧之间的光流信息进行 AU 检测。
时间 | 作者 | 方法 | 效果 |
---|---|---|---|
2019 | Yang | 采用单帧人脸图像作为模型输入,首先预测出输入人脸图像与中性人脸图像之间的光流信息,然后使用光流信息进行 AU 检测 | 该方法在测试阶段不需要输入个体的中性人脸图像,具有更强的灵活性 |
基于动态视频的自监督 AU 检测方法
近年来出现了一些基于动态视频的自监督 AU 检测方法。自监督方法在训练阶段通过定义无注释的前置任务,为下游任务的特征学习提供代理监督信号。考虑到面部动作单元的激活本质是人脸局部区域肌肉的运动,该类运动信息天然存在于人脸视频的不同帧之间,因此视频帧之间的运动信息可直接作为前置任务的代理监督信号,用于学习得到适用于下游 AU 检测任务的图像特征。
时间 | 作者 | 方法 | 效果 |
---|---|---|---|
2018 | Wiles | 提出了一种自监督的人脸属性特征学习方法(Fab-Net),该方法设计了一种编码器——解码器的模型结构 | 实验证明该方法学习得到的特征可用于离散表情分类、AU 检测等多种人脸分析任务 |
2019 | Li | 进一步设计了一种孪生循环自编码网络,以自监督的方式从无标注视频数据中学习出与头部姿态无关的 AU 特征 | 通过面部动作的先验知识,设计了一系列自监督约束,所学习的 AU 特征具有良好的头部姿态无关性,并取得了良好的 AU 检测效果 |
总体而言,基于视频的弱监督 AU 检测方法合理利用了 AU 的定义及先验知识,能够有效缓解 FACS 标注不足的问题,并具有更强的解释性。然而,该类方法在训练阶段依赖海量的无标注视频数据。相比于性能提升的增益,训练数据量的增长更为显著,这一点也是自监督学习方法的通用问题。此外,当前自监督学习方法并不能端到端地进行 AU 检测。如何在自监督学习方法的训练阶段合理利用一些标注数据,提升训练数据的性能增益是一个值得探索的研究方向。
其他模态 AU 检测方法
除了采用静态图像和动态视频,近期开始有一些研究工作尝试采用其他模态数据用于 AU 检测。与图像相比,点云数据具有更高的分辨率和丰富的空间信息,并且具有良好的姿态无关性。
时间 | 作者 | 方法 | 效果 |
---|---|---|---|
2019 | Reale | 在人脸的五官附近手工选择 16 个点,并以这些点为中心,采样出相应的局部点云用于 AU 检测 |
此外采用红外图像进行 AU 检测能够显著减轻光照变化带来的影响。
时间 | 作者 | 方法 | 效果 |
---|---|---|---|
2019 | Liu | 采用红外图像辅助 AU 检测,该方法使用 CNN 提取图像特征,该特征被同时用于 AU 检测,以及重建输入图像所对应的红外图像 | 该方法所学习的 AU 特征具有更强的光照不变性 |
实际场景中个体呈现的面部表情往往伴随着丰富的头部姿态变化、遮挡等情形,且图像中容易出现明显的光照变化。采用点云、红外图像等数据进行 AU 检测能够在一定程度上解决 RGB 图像模态过于单一的问题,并能够有效减轻头部姿态和光照变化等不利因素的影响。然而目前相关的数据库较少,采集点云或红外等数据具有较高的经济代价。
代表性 AU 检测方法性能对比
下表列举了 2016 年以来的代表性 AU 检测方法,以及这些方法在 BP4D、DISFA 数据库上的平均检测精度 F1-score。(F1-score 是精确度和召回率的调和平均数)
结果表明:
- 当前基于静态图像的弱监督 AU 检测方法与监督方法相比并不具备性能优势(说明相关的弱监督方法具有明显的挖掘空间,该类方法需要进一步结合 AU 的问题定义和先验知识,合理利用外部数据和标注信息)
- 与采用静态图像相比,基于动态视频的 AU 检测方法能够取得更高的检测精度,说明视频帧之间的时序信息具有重要意义
- 基于动态视频的 AU 检测方法中,除了建模连续帧之间的时序特征,另外采用注意力机制关注人脸的局部关键区域,综合利用监督学习方法和弱监督学习方法,有望进一步提升 AU 检测精度
各种代表性方法采用了不同的深度学习模型结构:
- ResNet 网络结构
- AU R-CNN(Ma, 2019)采用了 ResNet-101
- VGG 网络结构
- ROI(Li, 2017)
- ROI-T1(Li, 2017)采用了 VGG-16
- AU SRERL(Li, 2017)采用了 VGG-19
- 自行设计的网络结构
- JAA-Net(Shao, 2018)
- ARL(Shao, 2019)采用的模型结构包含两层块状结构,每层块状结构包含三路并行分支用于提取多尺度特征
- PAttNet(Ertugrul, 2019)采用了一种轻量级模型结构,该结构仅包含 3 个卷积层和 1 个全连接层
- DSIN(Corneanu, 2018)采用了自行设计的网络结构,包含 8 个卷积层和 2 个全连接层
- TCAE(Li, 2019)采用了一种全卷积结构,包含 8 个卷积层
识别结果表明,采用多层的残差网络结构有助于取得更高的 AU 检测精度。
结语
作为一种客观的人脸表情分析手段,面部动作单元检测相关技术一方面取得了相当的进展,另一方面仍然不能完全满足实际应用需求。相关方法仍然存在较大的探索空间,目前尚有如下关键问题值得关注:
- FACS 数据库标注不足的问题
- 基于 AU 的先验知识,综合利用无标注的图像或视频数据学习鲁棒的、判别性更强的 AU 特征
- 不同姿态下 AU 检测问题
- 充分挖掘视频序列里自然包含的 AU 和头部姿态变化,采用弱监督的方法学习出与头部姿态无关的 AU 特征,减轻头部姿态变化带来的影响
- 考虑采用 3 维点云等输入数据有望实现不同姿态下鲁棒的 AU 检测
- 领域适应 AU 检测问题
- 可以考虑采用对抗等方法学习得到与领域无关的 AU 特征
- 不常见 AU 检测精度过低的问题
- 需要一方面增大训练数据,另一方面借鉴当前应对长尾分布数据的新思路,设计出适用于 AU 检测的新方法,提升激活频率较低的 AU 识别精度